Angela镇楼,尽管是奔着CAROLE & TUESDAY去的,谁能想到被Angela圈了粉~
Angela的ED《not afraid》很好听。
Angela和Tao,意难平。
谁能拒绝这种酷酷的,为你考虑好一切的男孩子呢。
视频加载失败
一直单曲循环ing,感谢陪伴~
由于最近过于沉迷楠神的《政策信息学》,
so 鸽了好久欸(理直气壮.JPG)
接上篇
倾向得分匹配、双重差分倾向得分匹配(PSM、PSM-DID)-原理及stata实操(第一弹)CAROLE & TUESDAY 镇楼歌颂的是友情,有这样一个人和你灵魂是契合的。志合者,不以山海为远; 道乖者,不以咫尺为近。实名羡慕这样的友情了。2020年1月3日 第一次修订纪念第二弹outline一、缘起 为什么要选择 PSM二、PSM :解决selection bias 的有效工具三、计算p-score,进行PSM匹配的方法与步骤(Matching methods explained)Step 1: Estimating a Model of Program Participation白圭圭认真工作了吗678010817我们来完整操作一遍吧。
PSM-DID,本质就是先利用PSM的手段进行分组,再利用DID计算政策效应。
outline一、变量介绍及基础准备
二、计算p-score
第一种 pscore程序
第二种 psmatch2程序
第三种 nnmatch
三、匹配前后的平衡情况
第一种 psmatch2程序后估计
第二种 核密度曲线前后对比
第三种 diff里面的test support
四、双重差分
第一种:普通计算
第二种:Word bank
第三种:多期PSM-DID(Lu 2016)
一、变量介绍及基础准备因变量:政策实施可能带来的影响Y。
实验处理效应:是否实施某项政策(要求treatment effect严格外生,不存在内生性问题)。
匹配变量(协变量):使用尽可能多的协变量可以最大程度的满足“可忽略假设”
这里面可以认为实验处理效应D是一个格外关注的自变量,协变量Xi是控制变量。因此,对于Y和D的选择要直接相关,譬如说处理效应是“职业培训”,那么Y应该是工资;处理效应是“河长制”的建立,那么Y应该是河流治理水平;处理效应是“新药”,那么Y应该是寿命或者其他健康指标。
同样重要的是协变量的选取,有两大准则,首先当然和treatment effects垂直独立,其次是要在已有文献中研究能够对Y有影响的变量,譬如说
李贲&吴利华(2018)研究开发区设立(D)和企业成长(Y)的关系,对于协变量的选取就是企业年龄(Age 及其二次项Age×Age)、企业规模(Scale)、企业资产收益率(ROA)、企业资本密集度(Clr)、企业杠杆率(Leverage)、企业融资约束(Finance)、企业工资水平(Wage)、国有控股虚拟变量(State)、地区虚拟变量以及行业虚拟变量作为匹配的特征变量。
Jiahuan Lu(2015)研究的是以绩效为基础的外包(D)和绩效(Y)之间的关系,协变量的选取包括State and service year、Demographic background、Race、Gender (female)、Veteran、Primary disability、Secondary disability、Preservice status、Employment services。
石大千等(2018)研究的是智慧城市建设(D)和降低环境污染(Y),对于协变量的选取包括经济发展水平、城市化、对外开放、技术创新和产业结构。
Urban & Niebler(2014)研究的是在摇摆州投放广告(D)和总统竞选(Y)之间的关系,对于协变量取值包括该州的median household income, percent hispanic, percent african american, percen college graduates, and population density等。
这里需要注意的是,尽管Caliendo&Kopeinig,陈强老师等,都建议选取协变量尽可能选择不随时间发生改变的变量,但从实际来看,影响选择问题的如“经济”“技术水平”很多变量都是具有时间效应的。上面列举的文章中也有不少学者选择的变量是time-variable。
变量选取的准则
Heckman, Ichimura, and Todd (1997) show that omitting important variables can seriously increase bias in resulting estimates. Only variables that influence simultaneously the participation decision and the outcome variable should be included. 但是需要注意的是, only variables that are unaffected by participation (or the anticipation of it) should be included in the model. 这是什么意思呢?你也可以理解为不能存在“互为因果”的内生性问题。
比方说,我们在做policy evaluation的时候,经常会评估某项政策有没有效果。以试点为例,因为某个地方申请成为试点,肯定存在选择问题。所以这时候,PSM是很好的解决选择问题。我们收集了很多地方,一些地方设立了试点,一些地方没有设立试点。我们需要选择的协变量,是这些可以地方做出决策,决定是否成为试点的因素。如果是信息技术相关试点,那么,可能会收到经济水平的影响,一个地方经济水平越高,越有实力去开展烧钱的项目。但是,你不能选择因为设立了试点,而带来改变的变量。如,假设申请上信息化试点后,中央会增大关于ICT相关的资金拨付。你就不能选择这个变量作为匹配的协变量。即,不能选择受到实验分组影响的变量作为协变量。
因此,协变量 should either beffixed over time or measured before participation。这个问题,我老板找我探讨过,对于panel data应该如何匹配,如果选择经济作为匹配变量的话,一个市的经济水平是不断发展的。目前查阅到的文献没有很好的解决方法,我都是直接用pooled data。
此外,协变量的选取也应该符合一般线性回归,不存在多重共线性等问题。
变量数量是越多/少越好吗?
当然不是,你选择PSM就是为了解决curse of dimension,约束条件过多就是另外一种curse of dimension
而根据理论来说,你也不会同时找到十几个或者几十个约束条件
这时候,我们来看大佬怎么说的:Bryson, Dorsett, and Purdon (2002) note that there are two reasons why over-parameterised models should be avoided. First, it may be the case that including extraneous variables in the participation model exacerbate the support problem. Second, although the inclusion of non-signifficant variables will not bias the estimates or make them inconsistent, it can increase their variance.
所以,协变量的选择,要根据理论来,一个萝卜一个坑,不要想着都放进去。根据理论框架去选。
当然,有正方肯定就有反方,搞学术的都是杠精,喜欢去argue。
这时候,另一位大佬提出补充意见。他的看法和Bryson他们的并不矛盾,
Rubin and Thomas (1996) recommend against `trimming' models in the name of parsimony. They argue that a variable should only be excluded from analysis if there is consensus that the variable is either unrelated to the outcome or not a proper covariate.
有哪些选择变量的投机取巧方法呢?
在正式动手写文章前,阅读了大量文献后,你再跑模型。
根据文献找到尽可能多的变量。
通过减法,去找满足common support的尽可能多的变量。
然后再根据这些变量去做文献综述,这样子理论和变量就对应起来了的。
如果有一个关键变量,有一些文献认为它可能会有影响,但是加入这个变量后你的common support检验不过关,为了写论文,你得找到其他